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基于 语义 位 置 和 区 域 划 分 的 兴趣 点 推荐 模型 
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摘 要 : 针对 现 有 的 位 置 社交 网 络 研究 工作 对 兴趣 点 相关 的 用 户 语义 位 置信 息 挖 据 不 够 充分 ， 且 大 多 推荐 算法 忽 

了 兴趣 点 所 在 区 域 对 推荐 结果 的 影响 ， 提 出 了 一 种 新 型 兴趣 点 推荐 模型 (USTTGD)。 首 先 采用 分 d E 
克 雷 分 配 主题 模型 (latent Dirichlet allocation，LDA)， 基 于 签到 记录 中 的 语义 位 置信 息 挖 据 时 间 主 题 下 的 用 户 时 间 偏 
好 ， 然 后 将 兴趣 点 所 处 区 域 划分 为 网 格 ， 以 评估 区 域 影响 ;接着 应 用 边缘 加 权 的 个 性 化 PageRank. (Edge-weighted 
Personalized PageRank, Rope 点 之 间 的 连续 过 渡 ; 最 后 将 用 户 时 间 仿 好、 区域 偏好 和 连续 过 渡 偏 好 融合 
为 一 个 统一 的 推荐 框架 。 通 过 在 真实 数据 集 上 实验 验证 ， 与 其 他 传统 推荐 模型 相 比 ，USTTGD 模型 在 准确 率 和 召回 
率 上 有 了 显著 的 提升 。 
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Point-of-interest recommendation model based on semantic location and regional division 
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e Telecommunications, Chongqing 400065, China; 2. Chongqing Information Technology Designing Co. Ltd, Chongqing 
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Abstract: According to the existing research work of location-based social network was not sufficient to mine the user 
lem, semantic location information related to point-of-interest, Moreover, most recommendation algorithms ignored the influence 
i of the region of point-of-interest on the result of recommendation. This paper proposed a new recommendation model of 
T- point-of-interest called USTTGD, first adopted the Latent Dirichlet Allocation(LDA) topic model of time division, based on 


the semantic location information in check-in records mined the user time preference under the time theme, then devided the 


region of point-of-interest into grids to evaluate the regional influence. Next, applied Edge-weighted Personalized 
PageRank(EwPPR) to modeling the successive transitions among point-of-interests. Finally, USTTGD fused user time 
preference, regional preference and successive transition preference into a unified recommendation framework. 
Experimental results on real-world datasets show that USTTGD achieves significantly enhance compared with other 
classical recommendation models on precision and recalling rates. 

Key words: location-based social network; semantic position; point-of-interest recommendation; time theme; regional 
influence 


0 引言 链 蒙 特 卡 洛 法 和 变 分 法 近似 推理 ， 可 以 推导 出 潜在 空间 和 局 

B 部 变量 的 后 验 分 布 。 基 于 和 矩阵 分 解 的 方法 全 可 通过 将 用 户 - 

随 着 移动 通信 和 AG 网 络 技 术 的 日 渐 成 熟 ， 基 于 位 置 的 ” ”兴趣 点 矩阵 分 解 为 不 同 含义 的 潜在 特征 和 矩阵 来 预测 用 户 的 偏 

社交 网 络 (location-based social network, LBSN) 正 变 得 前 所 未 ” 好 。 然 而 这 些 方 法 只 能 学 习 用 户 的 静态 偏好 ， 不 能 捕获 用 户 
有 的 流行 。 社 交 网 络 用 户 以 “签到 ”的 形式 在 兴趣 点 


在 一 天 中 不 同时 段 内 的 动态 兴趣 。 基 于 概率 生成 模型 的 
(point-of-interest, POI) 上 分 享 他 们 的 位 置 和 体验 。 典 型 的 USTTM 算法 中 通过 考虑 用 户 在 不 同 的 时 段 内 所 做 的 选择 策 
LBSN 网 站 有 Foursquare, Yelp. Twitter. Facebook. £55. 各 ， 从 他 们 的 历史 签到 数据 中 挖掘 用 户 的 动态 时 空 主 题 。 然 
大 众 点 评 等 ， 这 些 网 站 根据 用 户 的 历史 签到 数据 来 向 用 户 推 而 , 它 只 能 从 用 户 的 地 理 签到 数据 中 的 经 纬度 来 捕获 用 户 的 
荐 新 的 兴趣 点 (如 公园 、 餐 厅 等 )。 兴 趣 点 推荐 服务 不 仅 能 给 时 间 偏 好 ， 没 有 任何 语义 解释 。 这 些 信息 不 足以 捕获 用 户 对 


用 户 带 来 丰富 的 社交 体验 ， 同 时 还 能 为 企业 带 来 商业 收益 ， 不 同类 型 位 置 的 偏好 。 此 外 ， 兴 趣 点 所 处 区 域 通常 也 会 影响 


提升 商家 知名 度 。 因 此 ，LBSN 兴趣 点 推荐 逐渐 成 为 推荐 领 “用 户 的 选择 ， 一 般 来 说 用 户 更 倾向 于 选择 前 往 著名 景点 区 范 

域 的 研究 热点 。 围 内 附近 的 某 个 兴趣 点 进行 签到 。 因 此 ， 位 置 推荐 中 兴趣 点 
位 置 推荐 中 现 有 的 研究 方法 大 多 都 是 基于 概率 生成 模型 ”所 处 区 域 也 是 不 可 或 缺 的 考虑 因素 。 

(PGM)。 基 于 PGM 的 方法 -3 从 用 户 的 签到 记录 中 了 解 用 户 综 上 所 述 ， 本 文 提出 了 一 种 统一 兴趣 点 推荐 模型 ， 综 合 

的 潜在 偏好 ， 如 潜在 的 空间 偏好 和 局 部 偏好 ， 利 用 马尔 可 夫 ”考虑 了 上 述 几 种 情境 因素 。 本 文 的 贡献 主要 为 : a) 提出 了 一 
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FP 分 割 时 间 的 LDA 算法 (STLDA), 将 签到 数 ] 
的 时 段 并 基于 多 个 LDA 模型 
名 用 户 在 不 同位 置 上 的 时 间 偏 好 ，b) 在 STLDA 算法 的 基础 
E 题 挖掘 算法 (TVTMJ)， 改 善 了 
个 训练 模型 中 生成 
| 算 兴趣 点 的 区 域 仿 


居 集 划分 为 不 同 
语义 定位 来 发 


提出 了 引入 时 间 变 量 的 
STLDA 中 存在 的 数 ] 


REPE LB, 可 在 是 


好 ; d) 构 建 简化 的 兴 
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维 核 密度 估计 的 1 


E 阵 分 解 模型 中 ， 通 过 对 空 
户 一 兴趣 点 矩阵 
总 体 来 说 ， 现 有 的 研究 
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度 来 刻画 空 | 


将 其 整合 


T% Mt Nl 


集 效应 的 建 模 可 以 有 效 绥 


可 题 。 


不 够 充分 ， | 


导致 算法 推荐 性 


日 边缘 加 权 的 


个 性 化 PageRank] [E 


中 每 个 兴趣 点 间 的 连续 过 渡 偏好 ， 
集 上 测试 了 该 模型 的 准确 率 及 召 


率 。 实 验 结 


果 表 明 ， 本 文 所 提 的 兴趣 点 推 


社交 网 络 的 快速 发 


生 能 指标 均 优 于 其 


于 始 迅速 普 


及 。 本 章 主要 回顾 了 与 本 文 研究 
进展 。 兴 趣 点 推荐 中 主流 的 推荐 
a) 基 于 概率 生成 模型 的 方法 。 利 用 概率 生成 方法 来 学 习 


研究 工作 的 


Wio Yin 等 人 中 提出 了 学 习 用 户 区 域 和 


区 


司 时 忽略 了 3 


用 户 的 语义 位 置信 息 考虑 
.推荐 中 的 区 域 影响 攻 


上 BE 


STTGD 模型 ,该 模 


。 因 此 ， 本 文 


EX: 
际 上 ， 现 实生 活 中 用 
素 的 影响 ， 因 此 ， 本 文 所 
j 户 的 实际 行为 。 


基于 语义 位 置信 息 的 建 模 


ub BHO E ZR 


Y N 


zo, REPERES 


F 
BE 


出 调整 。Hu 等 人 BI 不 
进行 建 模 外 ， 但 未 能 考虑 到 时 


| 用 稀 下 编码 技术 对 


1 ， 时 间 被 建 模 为 


F 均 访问 的 兴趣 点 数 过 于 
座 新 城市 时 ， 他 


fü. Wang 


门 的 兴趣 和 行为 ， 而 
也 们 的 家 乡 很 近 。 为 了 应 对 这 


主 会 动态 地 改变 他 1 户 访问 的 大 部 


挑战 ， 他 们 提出 


‘地理 鼠标 器 ”来 建 模 两 种 不 


: 用 户 的 本 地 
来 挖掘 时 空 主 
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位 置 这 一 种 情景 


。 但 该 模型 
助 语义 位 置 


|. Liu 等 人 0 构建 了 一 种 丰 


户 推荐 位 置 ,但 该 方法 只 
E 阵 分 解 的 连续 兴趣 点 推 
笃 的 方法 来 寻找 潜在 的 用 
ARENE IK, RA 


chinaXiv 


o Li 等 人 由 利用 和 矩阵 
EJERE. Wu SE AD! 
JP EBERT JN 


于 的 方法 来 学 习 用 户 
户 上 次 访问 的 时 间 间 隔 来 


问 过 的 位 置 。 


[E 


成 模型 中 来 建 模 用 广 


过 滤 推 荐 方法 。 根 


日 似 度 来 进行 位 置 扒 
佳 荐 结果 不 够 准确 。 
E 荐 系统 。Lian 等 人 00 
明和 矩阵 分 解 方法 来 推 


个 概率 4 
是 出 了 


| 
E 
Xn 


Bk Ap IUE 
?提出 了 一 


| 夫 链 (FPMC)05 融 入 


LBSN 中 。 


1 提出 了 一 种 度量 嵌入 (ME) 模 型 ， 以 观察 在 连续 
间 的 关系 。 同 时 还 考虑 ] 


paf 


JA AN ER A ERS 


3 
H 


于 核 密度 估计 的 方法 。 利 | 


] 核 密度 估计 1 来 查找 用 


局 模式 。Lichmant14 


等 人 采用 了 混 


合 核 密度 评估 法 在 个 体 用 广 


机 上 寻找 空间 密度 。 文 献 [15] 


固定 核 宽 的 核 密度 


车 于 每 个 用 PI 


纬度 坐标 兴趣 点 地 到 


的 签到 分 布 建 模 。Lian 等 人 (9 


问题 描述 


的 历史 语义 位 置信 息 ， 基 于 挖掘 出 的 时 间 3 
和 未 来 最 可 能 前 往 的 兴趣 点 的 位 


提出 了 一 种 


的 优势 在 于 能 通过 分 析 用 户 签到 记录 


= 题 推断 用 户 当 


0 兴趣 点 间 连 续 过 渡 


的 行为 人 
是 模型 更 能 


EL。 同时 考虑 到 了 区 域 影 
素 ,提升 了 推荐 结果 的 准确 性 。 


衣 好 本 身 就 受到 多 方面 情景 
映 真实 的 场景 ， 贴 


Tı 
N 
p 


进而 为 其 推荐 兴趣 点 。 


社交 关系 


位 置 社交 网 络 中 的 兴趣 点 推荐 是 通过 分 析 用 户 的 历史 签 

局 部 偏好 的 。 ”到 记录 数据 ， 向 用 未 访问 过 的 、 可 能 感 兴趣 的 位 
潜在 变量 表 o LBS 中 应 E U-tuun..w) 、 兴 趣 点 集 

问 不 同 地 点 的 ={l, ls 加 以 及 用 户 在 兴趣 点 上 的 历史 签到 记录 集 。LSBN 
I 位 置 和 时 间 ) ”体系 结构 G={U, 所 示 。 包 含 了 若干 用 户 、 兴 趣 点 
时 间 的 影响 作 ”以 及 三 类 关系 一 用 户 间 的 社交 关系 ， 兴 趣 点 间 的 关联 关系 及 
区 域 和 时 间 偏 好 用户 与 兴趣 点 间 的 签到 关系 。 实 际 上 通过 分 析 用 户 历史 签到 
门 的 另 一 项 研究 。 记录 就 能 提取 这 三 种 关系 。 本 文 所 提 的 推荐 模型 将 通过 融合 
但 该 模型 多 种 不 同 源 的 数据 ， 预 测 用 户 对 未 访问 过 的 兴趣 点 的 偏好 ， 


TIR 


K 15ju 


pd 


Tp 


LBSN 体系 结构 

LBSN architecture 
上 了 本 文 算 法 所 涉及 到 的 符号 及 相关 含义 。 
描述 


M 
7N 


D 


1P uži 


兴趣 点 1 在 


Pul 


Table 1 Symbols description 
符号 含义 
U,L,D 集合 ;兴趣 点 集合 ;签到 记录 集合 
u,l,t P ueU; 兴 趣 点 leL; 签 到 时 间 t 


趣 点 1 的 地 理 位 置 ,表示 为 经 纬度 坐标 
关于 兴趣 点 1 的 评论 集合 
其 访问 过 的 所 有 兴趣 点 的 评论 旨 
户 间 的 流行 度 
所 有 签到 


At 
np 


记录 集合 


Fa 


ACTES BU HERE ARIA EE 


STLDA 算法 


潜在 的 狄 利克 雷 分 配 
RIEA 
所 示 ，STLDA 算法 


型 ， 可 以 在 大 型 语 料 


入 是 一 个 文本 集 D 和 3 


(LDA) 
库 中 找 至 


2 所 示 。 


是 一 种 著名 的 概率 统计 生 
I 不 同 的 主题 集合 。 如 图 3 
对 间 段 都 是 LDA 模型 。LDA 的 输 
E 题 数 K， 输 出 将 是 每 个 文本 的 主题 分 
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布 向 量 ,以 及 天 个 主题 的 主题 词语 分 布 g。w 代表 文档 中 的 
单词 。X 是 一 个 潜在 的 变量 ， 它 表示 在 语料库 D 中 每 个 文档 
里 的 每 个 单词 w 的 主题 索引 ， 每 个 文档 中 词语 的 数量 由 No 
表示 。 每 个 文档 被 视 为 是 一 种 多 项 分 布 的 主题 ,每 个 主题 被 建 
模 为 词汇 表 的 多 项 分 布 ,9 是 每 个 文档 的 多 项 分 布 ，y 是 每 个 
FE 题 的 多 项 分 布 。a 和 为 分 别 对 0 和 g 使 用 狄 利克 雷 先 验 


Lu 
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如 下 : 
KOOS [ [077 (4) 
pix | B) x | [o^ (5) 


的 超 参 数 。 为 了 确定 文档 中 每 个 单词 的 潜在 主题 索引 ， 采 用 
Gibbs 抽样 方法 ， 利 用 式 〈1) 推断 潜在 变量 X， 从 而 了 解 用 
户 的 偏好 。 


pa. i-x | Xa, ~i, Wa, ~i, œ, P) oc 

h 
+ Qk x uat f (1) 
itak) 六 + pr) 


x 
Thu 
K (uk 

2 kl Gu, 


其 中 : xi 是 文档 4 中 单词 i HERRI n E d 中 除 


了 第 个 单词 外 被 指定 为 主题 索引 x ROGER RS ni, 是 被 


指定 为 主题 索引 x 的 索引 为 h 的 单词 数 。 在 对 文档 集中 的 每 
个 单词 分 配 主 题 索引 并 进行 多 次 迭代 之 后 ， 可 以 计算 出 每 个 
文档 的 主题 分 布 9 和 每 个 主题 的 主题 词语 分 布 办 计算 公式 
如 下 : 


" 
Diis ta. . 
M Ei (ni E2773] (2) 
h 
^ n + fh 
mis ————— 
»ACEZY 3) 


其 中 : n 是 文档 4 中 主题 上 下 的 单词 数 ,mw 是 文档 集中 中 主题 
大 下 索引 为 hh 的 单词 数 ，ox 和 pn 分 别 是 9 和 yg 的 狄 利 克 雷 先 
验 分 布 。 


es ERA 
| sTLDA 算 法 | ,Tm 
|| BAPIGUE D | 引入 时 | | ,用 户 时 
igi TT mE mI 
I i d 
将 区 域 划 区 域 min | | 推荐 
LBSN 数 m~~ » —^ max 标 一 > 
分 为 网 格 偏好 "Oa 
构建 兴趣 边缘 加 权 连续 
一 一 ”点 -兴趣 点 一 ”| 个 性 化 | 过 渡 
过 渡 图 PageRank 偏好 


图 2 基于 语义 位 置 和 区 域 划分 的 推荐 架构 图 


Fig.2 Recommendation architecture diagram based on senmatic 


location and regional devision 
为 了 了 解 用 户 对 兴趣 点 的 时 间 偏 好 ， 将 签到 数据 集 按照 
签到 时 间 划 分 为 不 同 的 时 段 ， 然 后 利 


划分 好 的 签到 数据 对 
LDA 模型 进行 训练 。 这 样 就 可 以 得 到 用 户 的 时 间 偏 好 。 对 签 


到 数据 集 每 一 个 划分 的 时 段 ， 将 每 个 用 户 视 为 文档 ， 用 户 访 
问 的 语义 位 置 是 文档 的 内 容 。 通 过 对 时 间 的 划分 ,可 以 了 解 每 
个 用 户 在 每 个 时 段 1 对 所 呈现 的 主题 向 量 4 的 偏好 。 
2.3 TVTM 算法 


其 中 : a 和 有 分别 是 gw 和 pr 的 狄 利 克 雷 先 验 分 布 的 超 参数 。 
对 用 户 数 据 集 U 中 的 每 个 用 户 ，Ni 代表 用 户 u 的 签到 记录 
数 ，W1 是 由 用 户 wu 访问 的 位 置 1 所 包含 的 评论 词语 数 。 洪 在 
变量 和 是 在 W /中 每 个 语义 词 的 主题 索引 ,yp 是 该 词 的 主题 分 
布 。TVTM 的 生成 过 程 如 下 :a) 从 狄 利克 雷 先 验 分 布 B 中 获取 
KK 项 变量 db). U 中 每 个 用 户 上 获取 了 项 变量 0;c) 对 每 个 用 
户 wE DU, 应当 满足 签到 记录 d*E{ 1,...,Nu)}; 在 dx 中 将 签到 
时 间 + 离散 化 为 s; 从 Wi 中 每 个 单词 上 获取 主题 


pp 


X- Multinomail(0;) 。 
© le e 
8 I@ Q9 
Np 9 @ (9 | @ 2 
— — uiia | > | Bn 


图 3 STLDA 算法 模型 
Fig.3 The algorithm model of STLDA 


e 
OR 
S 


oo t 
@ D 
图 4 TVTM 算法 模型 
Fig.4 The algorithm model of TVTM 

1) 用 户 时 间 偏 好 的 学 习 

于 位 置 |/ 有 评论 词汇 集 W1， 可 以 从 签到 记录 和 集 D 中 
是 取 一 个 评论 集 W ,。 将 每 个 用 户 视 为 一 个 文档 ， 通 过 从 
TVTM 模型 中 学 习 到 的 主题 分 布 来 表示 用 户 的 偏好 。 由 于 当 
人 们 处 于 一 天 中 的 不 同时 间 间 隔 时 ， 往 往 会 有 不 同 的 活动 。 


lU] 


pau 


STLDA 通过 将 签到 数据 集 划 分 为 不 同 的 时 间 段 来 了 解 
用 户 的 时 间 偏 好 ， 但 这 种 方法 可 能 导致 对 用 户 的 推荐 结果 不 
够 准确 ， 因 为 每 个 时 间 段 中 的 训练 数据 集 将 会 变 得 更 稀 琉 。 
为 了 改善 这 个 问题 ， 提 出 了 通过 考虑 时 间 变 量 来 修改 LDA 
Hj TVTM 算法 。 如 图 4 所 示 ，TVTM 模型 通过 引入 时 间 变 量 


姑 此 人 们 决定 去 某 地 时 ， 时 间 应 该 被 视 为 一 个 重要 因素 。 
TVTM 中 将 时 间 上 建 模 为 用 户 在 不 同时 间 点 的 偏好 指标 。 签 
到 时 间 上 将 是 一 个 连续 时 间 变 量 并 且 会 导致 无 限 多 的 用 户主 
题 分 布 0G。 为 了 解决 这 个 问题 ， 将 时 间 离 散 化 为 了 部 分 ， 变 


1 来 建 模 用 户 的 时 间 偏 好 。 具体 实现 方法 是 为 每 个 用 户 生成 了 
个 9 的 狄 利克 雷 先 验 分 布 。 离散 时 间 变 量 为 s，s 是 一 个 选择 
不 同 的 主题 分 布 变量 9 的 时 间 指 标 ,9 和 乡 的 先 验 分 布 定义 式 


量 s 代表 1 的 时 间 索 引 。 根 据 LDA 模型 ,从 主题 x 中选 出 的 单 
词 w 有 关于 办 的 多 项 式 分 布 。 从 4 中选 出 的 主题 x 表示 用 
户 在 时 间 间 隔 * 下 的 主题 偏好 。 

4 e 2 (62 为 每 个 用 户 的 主题 分 布 张 量 , 其 中 0 是 一 个 
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关于 时 间 间 隔 和 主题 索引 的 矩阵 。@ ={fojjg 表示 在 不 同 的 主 
题 大 下 的 词汇 分 布 ，o={ 了 和 2 代表 整个 评论 集 ， 变 量 的 联合 
分 布 表 示 公 式 如 下 : 
pGc.t,s, o, 8,0 | &, B) = 
p(x|8)p(8 |o) p(o| z. $) p(o | B) ps | r) 
2) TVTM 算法 的 参数 推导 
本 节 的 目的 是 得 到 x,t,s,w 所 提供 的 9 和 @ 的 后 验 分 布 ， 
也 就 是 说 需要 计算 P(8@,@| xzs,w。 由 于 难以 计算 边缘 分 布 
P(x,t,s,w lap), 故 精 确 推 出 P(B@,@|x,ts,@) 是 不 可 能 的 因此 ， 
考虑 应 用 马尔 可 夫 链 蒙特 卡 罗 (MCMO) 方 法 折 闭 Gibbs 抽样 
15] 进行 近似 推导 。 选 择 一 个 9 和 4 WAKA vL r8 H8 7C ST , 
可 以 集成 @ 和 @ 来 简化 抽样 过 程 。 
DG. i = x | Xu ~i, Ou, ~i, t, 8, Qt, B) oc 
Msata n! i fh (7) 
Eata > atp) 
IRITE Gibbs 采样 的 程序 ， 需 要 迭代 更 新 完整 的 条 件 
DA, WAHR IRIRA W 4 中 出 现 的 每 个 单词 的 新 主 


站 观察 到 的 主题 x 的 次 数 ， 不 包括 


o EN meni HR u NH 


(6) 


W, PE s 个 时 间 索 引 下 的 第 i 个 单词 。 EÉ, msni 是 第 个 时 


闻 闻 隔 中 分 配给 主题 下 的 单词 的 数量 。 经 过 足够 多 次 的 
迭代 后 ， 马 尔 可 夫 链 逐渐 收敛 到 一 个 平稳 分 布 ， 每 个 用 户 的 
主题 分 布 和 单词 分 布 可 由 下 面 的 式 8) 和 (9) 计算 得 到 ， 
设置 a= 50/ K, p= 0.01。 


2 DNE 
ÜlsíeB-—2e 0 c 
Vi nt, +a) (8) 
pec (9 
Mots B) ) 


2.4 用 户 时 间 偏 好 
LBSN 中 先前 的 看 


究 工 作 大 都 以 静态 的 方式 向 用 户 推荐 


位 置 ， 而 基于 时 间 主 题 的 建 模 则 是 在 向 用 户 推荐 兴趣 点 时 考 
虑 到 用 户 的 时 间 偏 好 。 有 具体 来 说 ， 根 据 给 定 的 用 户 签到 记录 
组 合 (ul, ， 对 于 工 中 的 每 个 兴趣 点 1， 计 算出 用 户 访问 1 
的 可 能 性 ， 同 时 兴趣 点 评分 也 被 视 作 是 用 户 选 择 访问 位 置 的 
一 个 重要 因素 。u 对 1 的 时 间 偏 好 定义 为 u 在 时 间 t 访 问 兴 
点 7 的 概率 ， 其 计算 公式 如 下 。 
po. = pa | Wi yiu.t 0.) 
p(. Wi yi| u,t,0,Q) (10) 


Y (QU. We, yv | ut 0,9) 


其 中 : 
范 化 。 


pU, W, yu t 0,2) 的 计算 如 式 〈11) Bros, Yi 是 [0,1] 规 


p. Wi yi |u,t,ĝ,ĝ) = Beta(y1,1) 


K . ES (11) 
x2, Po [us A [ [ pw] x, 9^ 


3 ”基于 区 域 划 分 的 建 模 


3.1 区 域 偏好 

考虑 到 兴趣 点 所 处 区 域 也 会 对 推荐 结果 产生 影响 。 引 入 
网 格 思想 。 如 图 5 所 示 ， 将 空间 划分 为 几 个 网 格 单元 。 设 ! 
为 用 户 wu 的 当前 位 置 。 以 1 .为 圆心 ，r 为 半径 的 圆圈 覆盖 内 
的 网 格 单元 , PA u 的 近 领 网 格 单元 , 令 num(Ds) 是 一 个 网 格 


战 刘 分 的 兴趣 点 推荐 模型 
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单元 格 gi 中 所 有 兴趣 点 的 签到 记录 数量 的 总 和 。 使 用 下 列 公 
式 来 测量 网 格 单元 格 gi 的 流行 度 。 
num( Ds) 
g= (12) 


D was num(D.) 


图 5 网 格 区 域 划分 
Fig. 5 


Grid regional devision 


3L, 


M 


录 时 ,表明 网 格 


] 户 u 在 网 格 单元 gi 中 的 一 些 兴趣 点 上 有 大 量 签到 记 


单元 gi 很 可 能 是 用 户 u 喜欢 的 区 域 , 同时 xz 在 


网 格 单元 gi 中 的 其 他 兴趣 点 上 签到 的 可 能 性 也 会 很 高 。 令 
num(D;) 为 用 户 u 在 网 格 单元 gi 中 所 有 兴趣 点 上 签到 记录 的 


然后 利用 下 列 公式 来 计算 这 种 偏好 。 


num(D,, ) 


ELT NEN ENT 
2; VgeGo num(D, ) 


(13) 


进行 签到 。 


由 于 用 户 更 倾向 于 选择 在 靠近 
折 以 认为 用 户 倾向 于 在 用 户 当前 所 处 的 网 格 单元 
内 的 兴趣 点 上 签到 , 故 定义 一 个 偏好 变量 a , 当 | 
在 gi 内 时 ， 变 量 值 为 1， 否则 为 0。 

然后 将 上 述 


户 当 前 位 置 的 兴趣 点 上 


户 当前 位 置 


术 三 种 偏好 变量 组 合 在 一 起 。 


下 列 线性 函数 


表示 网 格 单元 格 gi; 的 偏好 得 分 。 


Gps(g) - Ag; +88; * 6g; 


OXA,0,gSbhA-c-Ó-£-1 (14) 
最 终 ，u 对 兴趣 点 1 的 区 域 偏好 计算 公式 如 下 : 
Hep D (15) 
3.2 连续 过 渡 偏 好 
在 本 节 中 ， 利 用 兴趣 点 一 兴趣 点 过 渡 图 来 建 模 连续 签到 


定义 1 月 


过 渡 。 
定义 2 H 


的 关系 。 令 (20 表示 用 
记录 。 兴 趣 点 -兴趣 点 过 渡 图 定义 如 下 。 


P u 在 时 间 上 时 在 兴趣 点 ! 上 的 签到 


HP u Ij S33), t2)... Qs lnstz) 


HKrpnspes.sm. WIR fi.rt; t, 7 表示 连续 签到 的 时 间 间 
隔 ， 则 认为 关于 


1P u AGER EX 181]. Li+ 7 之 间 有 一 个 连续 的 


HP u 的 兴趣 点 -兴趣 点 过 渡 图 是 一 个 有 向 图 G 


=(L,E), 其 中 工 是 所 有 兴趣 点 的 集合 ,EE 是 中 所 有 的 连续 过 


续 过 渡 ， 那 么 
义 如 下 。 


EH: Tran(lil 


渡 数 。 


A 


渡 集 合 。 如 果 在 u 的 历史 签到 记录 中 存在 一 个 从 /到 4 的 连 


E 中 将 存在 一 条 定向 边 (1:W)。(1i) 边 的 权 值 定 


Ew(l,l) = Tran(li, lj) 
Dy Tranh, D) 


DAE u 的 历史 签到 记录 中 从 到 的 连续 过 


(16) 


由 于 只 有 与 用 户 wu 当前 位 置 距离 小 于 d 的 兴趣 点 作为 候 
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选 兴 趣 点 被 推荐 ， 故 再 提取 一 个 G 的 子 


兴趣 点 的 过 渡 


度 图 G'=(L',E'")， 


xp F, 


通过 移 除 不 在 4 所 处 的 网 格 六 


等 : 基于 语义 位 置 和 区 域 划 分 的 兴趣 点 推荐 模型 


图 ， 命 名 为 兴趣 点 - 


元 


或 近邻 网 格 单元 格 中 的 兴趣 点 。 然 后 使 用 边缘 加 权 个 性 化 
PageRank (EdgePPR ) 05 来 计算 c' 中 每 个 兴趣 点 的 EdgePPR 
值 , u 对 7 的 连续 过 渡 偏 好 定义 为 1 的 归 一 化 EdgePPR 评分 ， 
可 以 通过 以 下 公式 获得 。 


Diis S 
3.3 规范 化 统一 模型 


本 文 将 利用 min-max 标准 化 来 处 理 原始 数据 ， 将 用 户 时 
间 偏 好 、 区 域 偏好 和 连续 过 渡 偏 好 规范 化 如 下 : 


EdgePPR(G',l) 
> uu EdgePPR(G',l') 


Q7) 


user 


- 
gue p,,,- Wun 
ult T Use - 
max; — min 
LI 
gn = p,,,- mun 
i ONE EE (18) 
max; — min" 
suc "- 
gw = Pris mm 
ut su H 
max; — min 


user 


HH: maxi 


H. ,max;*/ min?“ , max} “Imin 分 别 为 L 中 所 有 
兴趣 点 上 最 大 /最 小 的 用 户 时 间 偏好 、 区 域 偏好 以 及 连续 过 渡 
偏好 。 


综 上 所 述 ， 提 出 一 种 线性 统一 生成 框架 来 集成 这 几 种 情 
景 信息 ， 最 终 用 户 u 对 兴趣 点 1 的 的 总 体 偏好 评分 由 下 列 公 
式 可 得 。 

Su 1t = OS + PS, + nS (19) 
0zo,p,n<lo+p+n=1 
34 参数 推导 
TVTM 算法 中 详细 参数 推导 见 算法 1。 


算法 1 TVTM 中 的 Gibbs 抽样 
输入 : 用 户 签到 数据 集 D， 主 题 数 K， 时 间 间 隔 数 S, 
BRAA I， 预 处 理 时 间 五 ， 样 本 滞后 时 间 I6， 先 验 分 布 a, B 


输出 :目标 参数 Â, ô 


创建 计数 变量 non 0, o™ ， 全 初始 化 为 0 


for ueU do 
for weW, do 


为 w 随机 分 配 话题 ， 更 新 计数 变量 n, 


end 
end 
创建 变量 
for RRA 1 AI do 
for ueU do 
for weWu do 


count-0; 


利用 式 〈7) 更 新 主题 分 配 ， 更 新 m,n， 


end 
end 
if(iteration*Iy && iteration%Is==0) then 


count=count+ 1; 


k 
Om ns ui 
sack K k 
bx (n,, ax) 
T nj t f 
Pir 
B i _ + pr) 
end 
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返回 参数 6 = ,P= 了 


count 

求解 线性 无 约束 最 优化 问题 的 常用 办 法 是 梯度 下 降 法 ， 
对 此 ， 本 文 将 对 式 (19) 采用 多 元 线性 回归 进行 处 理 ， 转 换 
表达 式 如 下 : 


f G9 = f. (X) 2 eon + ex ex (20) 
中 满足 
fo) 一 S, ht 
cx = oS, cx» = pS Ca =s " Q1) 
对 于 损失 函数 ， 有 
I% | 
L(c) = L(c.cs...6) = 22,0 0^ -y®)) (22) 


接着 便 可 利用 梯度 下 降 法 得 到 最 优化 参数 : 


Oo=0 ESXU 一 yx (23) 
1% j i 

po -- 3 0, -ya Q4) 
1 n " » 

qpeo-- d. G9 -yoyap Q5) 


4 ”实验 结果 及 分 析 


4.1 实验 数据 集 

本 文 实验 使 用 了 两 个 真实 签到 数据 集 ，Foursquare 2 
Gowalla。 为 了 保证 实验 的 有 效 性 ， 去 除 签到 记录 数 少 于 

的 用 户 以 及 被 签到 数 少 于 80 的 兴趣 点 ， 最 终 得 到 
Foursquare 数据 集 包含 3 067 个 用 户 的 180544 条 签到 记录 ， 
其 中 兴趣 点 数量 为 27 564 A^. Gowalla 数据 集 包 含 6304 个 用 
户 的 808 172 条 签到 数据 ， 兴 趣 点 数量 为 53 827 个 。 对 
Foursquare 和 Gowalla 这 两 个 数据 集中 的 每 位 用 户 随机 选取 
其 中 7596 的 签到 数据 作为 训练 集 ， 余 下 25% 的 签到 数据 作 
为 测试 集 。 
4.2 评价 指标 

本 文采 用 两 个 在 推荐 算法 中 应 用 较为 广泛 的 评价 指标 : 

准确 率 precision@N 以 及 召回 率 recall@N。N 代表 最 终 推 荐 


ii 
X 


结果 Top-N 下 的 推荐 数量 ， 准 确 率 表示 算法 推荐 结果 与 用 户 
反馈 的 契合 程度 ， 能 够 反映 推荐 的 准确 性 。 召 回 率 则 被 用 来 
评估 算法 的 执行 效率 ， 体 现 的 是 用 户 偏好 的 推荐 对 象 能 被 推 
荐 的 概率 ， 反 映 推 荐 的 全 面 性 。 计 算 方 法 为 
Ll _ > RaoOmTGo| 
precision @ N = EINE (26) 
"- o > ,RW MT) 
II@N= Tr Iro (27) 


其 中 : R() 表 示 推 荐 算法 在 执行 训练 集 后 得 到 的 兴趣 点 推荐 

列表 ，T() 则 表示 用 户 在 测试 集 上 的 实际 签到 过 的 兴趣 点 列 

表 。 

43 实验 参数 选取 
本 节 旨 在 选取 能 使 USTTGD 模型 性 能 最 优化 的 参数 。 本 

文 设置 主题 数 K=50， 时 间 段 为 4，o= 1，p= 0.01， 根 据 3.4 

节 所 叙述 的 参数 推导 方法 ， 选 择 此 时 的 最 优化 参数 作为 本 文 

实验 的 参数 。 这 些 参数 的 值 如 表 2 所 示 。 

表 2 实验 参数 值 


Table 2. Experimental parameter value 


数据 集 1 6 2 c p 7 
Foursquare 0.2 0.3 0.5 0.4 0.2 0.5 
Gowalla 0.3 02 06 04 0.3 0.2 
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4.4 实验 性 能 比较 但 召回 率 均 有 所 提升 。 
为 了 验证 本 文 所 提出 的 推荐 模型 USTTGD 的 性 能 , 将 它 b)UGPLR、FPMCLR、USTTM、USTTGD 与 ULR 相 比 
与 下 列 几 种 推荐 算法 进行 实验 对 比 。 所 对 比 的 推荐 算法 详细 在 性 能 上 均 有 了 较为 明显 的 提升 。 这 说 明 考 虑 多 种 情境 因素 
特征 如 表 3 所 示 。 相 比 仅 考 虑 单一 地 理 因 素 ， 对 传统 推荐 算法 性 能 的 提升 会 起 
表 3 比较 的 推荐 算法 到 更 明显 的 作用 。 
Table 3 Recommendation algorithm for comparison c)USTTGD 相 比 USTTM， 在 算法 性 能 上 有 了 进一步 的 
算法 (简称 ) 算法 描述 提升 ， 这 说 明基 于 用 户 语义 位 置信 息 的 建 模 能 获得 更 精确 的 
ULRÜ 基于 用 户 的 签到 记录 数据 , 融入 了 地 理 信息 来 进行 推荐 。 推荐 效果 ， 而 USTTM 仅仅 只 是 利用 简单 的 地 理 坐 标 来 挖掘 
基于 用 户 的 签到 记录 数据 ， 结 合 了 地 理 信息 和 兴趣 点 间 时 间 主 题 ， 但 相对 于 另外 三 种 推荐 算法 ， 在 推荐 性 能 上 也 具 
UGPLRU?I " 、 
的 连续 过 渡 因 素来 进行 推荐 。 有 了 足够 的 优势 。 
EE 用 户 的 签到 记录 数据 ， 结 合 地 理 信 息 和 个 性 化 马尔 表 5 Gowalla 数据 集中 不 同 N 值 下 的 推荐 性 能 对 比 表 
科 夫 链 的 因 式 分 解 来 进行 推荐 。 Table 5 Table of recommendation performance comparisons for 
USTTMDI 基于 概率 生成 模型 ， 仅 利用 用 户 签到 记录 中 的 地 理 信息 different N values in Gowalla dataset 
和 时 间 信 息 来 捕获 用 户 时 间 偏 好 ， 无 任何 语义 解释 。 算法 precision@N recall@N 
本 文 所 提 的 推荐 算法 ， 基 于 概率 生成 模型 ， 综 合 考虑 了 95  G10 G15 @20 @5 @l0 e15 @20 
USTTGD 用 户 历史 签到 行为 、 时 间 信 息 、 语 义 位 置信 息 、 地 理 信 ULR 0.047 0.032 0.022 0.016 0.21 024 027 0.31 
息 、 连 续 过 渡 影响 。 UGPLR 0.065 0.053 0.047 0.041 0.27 0.31 0.33 0.37 
实验 1 不 同 兴 趣 点 推荐 数量 下 的 算法 结果 对 比 FPMCLR 0.068 0.056 0.051 0.045 0.29 0.33 035 04 
本 节 实 验 主 要 观察 各 种 算法 在 不 同 的 兴趣 点 推荐 数量 USTTM 0.069 0.057 0.051 0.046 0.3 0.35 038 042 
(TOP-N) 下 的 结果 。 将 半径 > 和 网 格 边 长 分 别 设 为 Tkm,0.5km, USTTGD 0.073 0.061 0.054 0.049 0.33 0.38 0.42 0.46 
如 图 5~8 Br, ERN 代表 了 所 推荐 的 兴趣 点 个 数 ， 
纵 轴 precision N 和 recall &N 分 别 代 表 在 不 同 推荐 兴趣 点 数 precision@N recall@N 
量 时 各 推荐 算法 对 应 的 准确 率 及 召回 率 。 实 验 中 分 别 设 ive i 
N=5、10、15、20， 算 法 中 的 其 余 参数 均 设 为 满足 算法 性 能 Mr | B 
最 优化 时 的 参数 值 。 本 节 给 出 了 各 类 算法 在 不 同 兴趣 点 推荐 don | | | P lil | 
数量 下 准确 率 及 召回 率 的 比较 结果 。 ^ oo: | ea | | 
表 4 Foursquare 数据 集中 不 同 N 值 下 的 推荐 性 能 对 比 表 28 | | o 
Table 4 Recommendation performance comparison table for different 5 pde z0 ? mom: id 
N values in the Foursquare dataset 
算法 precision@N recall@N ee Miei pA pons ee 
mUSTTM mMUSTTGD mUSTTM m USTTGD 
@5 @10 @l5 @20 @5 @10 @15 @20 
ULR 0.038 0.033 0.03 0.027 0.115 0.14 0.198 0.226 8 基于 Gowalla 的 9 基于 Gowalla 的 
UGPLR 0.046 0.04 0.034 0.031 0.155 0.215 0.253 0.285 准确 率 实 验 对 比 图 召回 率 实验 对 比 图 
FPMCLR 0.058 0.053 0.046 0.041 0.163 0.223 0.256 0.288 Fig.8 Precision experimental Fig.9 Recalling rate experimental 
USTIM 0.06 0.055 0.047 0.042 0.165 0.225 0.259 0.292 comparison based on Gowalla comparison based on Gowalla 
USTTGD 0.063 0.058 0.049 0.045 0.17 0.228 0.263 0.305 实验 结果 表明 , 本 文 算法 USTTGD 相对 于 另外 四 种 推荐 
算法 ， 无 论 是 在 准确 率 还 是 召回 率 上 ， 算 法 性 能 明显 更 好 。 
precisiongN recall&N 实验 2 不 同 签到 时 间 间 隔 下 的 算法 结果 对 比 
d d: 本 节 实 验 主要 观察 各 种 算法 在 不 同 的 连续 签到 时 间 间 隔 
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0.05 (四 下 的 结果 。 将 半径 + 和 网 格 边 长 分 别 设 为 1km,0.5km, 将 = 


- 0.25 
$00 gv 值 分 别 设 为 1、2、3、6 小 时 ， 实 验 结果 如 表 6、7 及 图 10-13 
$ 0.03 9 0.15 M 
8 ooz 0.1 所 示 。 
0.01 0.05 | 表 6 Foursquare 数据 集中 不 同 z 值 下 的 推荐 性 能 对 比 表 
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Table 6 Table of recommendation performance comparisons for 


Top-N Top-N different t values in Foursquare dataset 
: i " Tt( 小 时 ) 

OULR UGPLR mFPMCLR OULR UGPLR BH FPMCLR 算法 评价 指标 1 2 3 6 
BUSITM IUSITGD WUSITM A USITGD UER precision@10 0.028 0.025 0.023 0.019 
recall@10 0.22 0.18 0.17 0.13 

网 基于 k 图 Er ^ 
6 基于 Foursquare 的 7 基于 Foursquare 的 PE precision@10 0.041 0.035 0.03 0.024 
准确 率 实验 对 比 图 召回 率 实验 对 比 图 recall@10 026 023 02 0.18 
Fig.6 Precision experimental Fig.7 Recalling rate experimental FPMCLR precision 10 0.046 | 0.039 0.033 0.027 
comparison based on Foursquare comparison based on Foursquare recall 10 027 024 0.21 0.19 
7 : recall 10 0.29 0.26 0.23 0.2 


a) 随 着 top-N 值 的 增加 ， 各 类 算法 的 准确 率 均 会 有 所 下 precision@10 ^ 0.054 0.045 0.039 0.033 
降 , 这 是 因为 随 着 推荐 数量 的 增多 会 增加 模型 的 时 间 复 杂 度 。 UIT GD recall@10 034 029 027 0.25 
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的 准确 率 实 验 对 比 图 


Fig. 10 Precision experimental 


comparison based on Foursquare 
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图 11 基于 Foursquare 
的 召回 率 实验 对 比 图 


Fig. 11 Recalling rate experimental 


comparison based on Foursquare 


表 7 Gowalla 数据 集中 不 同 r 值 下 的 推荐 性 能 对 比 表 


Table7 Table of recommendation performance comparisons for 


different t values in Gowalla dataset 


、 ; E Tt( 小 时 ) 
算法 评价 指标 
1 2 3 6 
precision@10 0.015 0.013 0.012 0.01 
ULR 
recall@10 0.23 0.17 0.12 0.07 
precision@ 10 0.038 0.035 0.033 0.031 
UGPLR 
recall@10 0.39 0.28 0.2 0.15 
precision@ 10 0.047 0.043 0.038 0.036 
FPMCLR 
recall@10 0.45 0.37 0.25 0.19 
precision 10 0.048 0.046 0.039 0.038 
USTTM 
recall@10 0.47 0.37 0.26 0.21 
precision@ 10 0.054 0.05 0.043 0.041 
USTTGD 
recall@10 0.52 0.41 0.3 0.26 
Gowalla Gowalla 
0.06 0.6 
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E S 04 
© 0.04 口 0. 
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图 12 基于 Gowalla 的 
准确 率 实验 对 比 图 


Fig. 12 Precision experimental 


comparison based on Gowalla 


过 实验 2 结果 可 以 看 出 
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图 13 基于 Gowalla 的 
召回 率 实 验 对 比 图 


P 
Fig. 13 Recalling rate experimental 
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comparison based on Gowalla 


， 随 着 时 间 阔 值 (9 约束 条 件 的 


增加 ， 各 类 算法 的 推荐 精度 和 
时 间 间 隔 增 大 时 ， 用 户 可 能 会 


召回 率 均 会 降低 。 这 是 由 于 当 
移动 到 离 当前 所 在 的 兴趣 点 较 


远 的 位 置 ， 从 而 降低 连续 兴趣 
时 间 间 隔 对 于 模型 的 预测 效果 


5 ”结束 语 
本 文 利用 


] 户 在 LBSN 中 


统一 兴趣 点 推荐 模型 ， 首 先 根 ] 


语义 位 置信 息 建 模 ， 接 着 引入 
中 生成 时 间 主 题 ， 缓 解 了 之 前 


点 推荐 的 性 能 。 因 此 ， 控 制 好 
b 有 着 重要 的 意义 。 


的 历史 签到 记录 ， 提 出 了 一 种 
据 时 间 分 割 LDA 模型 对 用 户 
时 间 变 量 可 在 单个 LDA 模型 
的 数据 稀疏 性 问题 。 然 后 通过 
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建立 网 格 来 结合 区 域 影响 因素 和 兴趣 点 间 连 续 过 渡 因 素 ， 最 
终 向 用 户 产 生 推 荐 。 实 验 结果 表明 ， 本 文 所 提 新 型 模型 有 效 
地 融合 了 多 种 情境 因素 ， 并 且 在 各 项 性 能 评价 指标 上 均 
优 于 现 有 的 主流 推荐 算法 。 下 一 步 的 研究 工作 是 深入 挖掘 
户 签到 数据 中 的 其 他 属性 ， 以 达到 更 优 的 推荐 效果 。 
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